Retrieval-based Language Models and Applications (1)

August 28, 2023

Retrieval-based language models (LMs)

Retrieval-based LMs = 检索(Retrieval) + 语言模型(LMs)

语言模型： $P|(x_n|x_1,x_2,\cdots,x_{n-1})$ ，即根据先前出现的词预测下一个最有可能出现的词。

检索：从外部数据库中检索出与当前输入最相关的信息（至少在推理阶段）。

代表任务：open-domain QA, fact checking, entity linking, …

驱动了大量稠密检索的发展。（原因在于这些任务的模式，都需要对目标库数据进行准确有效的检索）

挑战1：LLMs不可能记住参数中的所有（长尾）知识。

因此，使用检索增强的大语言模型能够更好地处理长尾的知识，从而提升模型的泛化能力。
挑战2: LLMs的知识容易过时且难以更新。例如查询某某公司的CEO，回答可能不是最新的动机：
- 现有的知识编辑方法仍不可扩展（目前研究热点）
- 现有的数据存储可轻松更新和扩展，甚至无需重新训练。
挑战3：LLMs的输出结果难以解释和验证。

我们可以通过追踪检索结果中的知识源来对模型输出的结果进行解释和控制。（例如being中的一些结果，或者现有gpt4中的plugin）。
挑战4：LLMs很容易泄露私人训练数据。

github copilot就存在类似的问题，考虑可以将私人数据存储在数据存储库中，使其个性化。
挑战5：LLMs规模大，训练和推理成本高昂。

检索+LLMs是否比直接的LLMs更经济？即一个长期目标：我们能否降低训练和推理成本，进一步缩小 LLM 的规模？（例如，RETRO获得与 GPT-3 相当的性能、并且使用的参数减少 25 倍”。）

问题定义：

结构设计：

训练方法：

应用和扩展：